<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>停用词: 性能与精度 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/stopwords.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/stopwords.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/stopwords.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/stopwords.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-node">停用词: 性能与精度</span>
</div>
<div class="navheader">
<span class="prev">
<a href="stemming-in-situ.html">« 原形词干提取</a>
</span>
<span class="next">
<a href="pros-cons-stopwords.html">停用词的优缺点 »</a>
</span>
</div>
<div class="chapter">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="stopwords"></a>停用词: 性能与精度<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/240_Stopwords/10_Intro.asciidoc">edit</a>
</h2>
</div></div></div>
<p>从早期的信息检索到如今， 我们已习惯于磁盘空间和内存被限制为很小一部分，所以
必须使你的索引尽可能小。 每个字节都意味着巨大的性能提升。   词干提取(Stemming, 见<a class="xref" href="stemming.html" title="将单词还原为词根">将单词还原为词根</a> )的重要性不仅是因为它让搜索的内容更广泛、让检索的能力更深入，还因为它是压缩索引空间的工具。</p>
<p>一种最简单的减少索引大小的方法就是 <em>索引更少的词</em>。 有些词要比其他词更重要，只索引那些更重要的词来可以大大减少索引的空间。</p>
<p>那么哪些词条可以被过滤呢？ 我们可以简单分为两组:</p>
<div class="variablelist">
<dl class="variablelist">
<dt>
<span class="term">
低频词（Low-frequency terms）
</span>
</dt>
<dd>
在文档集合中相对出现较少的词，因为它们稀少，所以它们的权重值更高。
</dd>
<dt>
<span class="term">
高频词（High-frequency terms）
</span>
</dt>
<dd>
在索引下的文档集合中出现较多的常用词，例如 <code class="literal">the</code>、<code class="literal">and</code>、和<code class="literal">is</code>。 这些词的权重小，对相关度评分影响不大。
</dd>
</dl>
</div>
<div class="tip admon">
<div class="icon"></div>
<div class="admon_content">
<p>当然，频率实际上是个可以衡量的标尺而不是非 <em>高</em> 即 <em>低</em> 的标签。我们可以在标尺的任何位置选取一个标准，低于这个标准的属于低频词，高于它的属于高频词。</p>
</div>
</div>
<p>词项到底是低频或是高频取决于它们所处的文档。单词 <code class="literal">and</code> 如果在所有都是中文的文档里可能是个低频词。在关于数据库的文档集合里，单词 <code class="literal">database</code> 可能是一个高频词项，它对搜索这个特定集合毫无帮助。</p>
<p>每种语言都存在一些非常常见的单词，它们对搜索没有太大价值。在 Elasticsearch 中，英语默认的停用词为:</p>
<pre class="literallayout">a, an, and, are, as, at, be, but, by, for, if, in, into, is, it,
no, not, of, on, or, such, that, the, their, then, there, these,
they, this, to, was, will, with</pre>

<p>这些 <em>停用词</em> 通常在索引前就可以被过滤掉，同时对检索的负面影响不大。但是这样做真的是一个好的解决方案吗？</p>







</div>
<div class="navfooter">
<span class="prev">
<a href="stemming-in-situ.html">« 原形词干提取</a>
</span>
<span class="next">
<a href="pros-cons-stopwords.html">停用词的优缺点 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>